STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten
نویسندگان
چکیده
Für viele aktuelle Fragestellungen der Zweitund Fremdspracherwerbsforschung („L2Erwerbsforschung“) sind Lernerkorpora unverzichtbar geworden. Sie stellen Texte von L2Lernern1 zur Verfügung, oftmals ergänzt durch vergleichbare Texte von Muttersprachlern der Zielsprache. Beschränkten sich Analysen der Lernerkorpusforschung in den ersten Jahren hauptsächlich auf einzelne Wortformen (vgl. Granger, 1998), hat sich das Forschungsinteresse beständig hin zu komplexeren grammatischen Kategorien entwickelt. Dazu zählen u.A. die Untersuchung tiefer syntaktischer Analysen (Dickinson und Ragheb, 2009; Hirschmann et al., 2013, u.a.) oder die Strategien der Markierung von Kohärenzrelationen (z.B. Breckle und Zinsmeister, 2012). Derartige Analysen bauen dabei nur selten auf der Textoberfläche selbst auf, sondern setzen i.d.R. die Annotation von Wortarten für jedes Texttoken voraus und ggfs. weitere, darauf aufbauende Annotationsebenen. Annotationen dienen generell immer der Suche nach Klassen in den Daten, die anhand der Oberflächenformen allein nicht leicht zugänglich wären (im Kontext von Lernerkorpora vgl. Díaz-Negrillo et al., 2010). Ist man z.B. an einer Analyse von Possessivpronomen interessiert, würde man bei einer Korpussuche, die nur Zugriff auf die Wortformen selbst hat, bei der ambigen Form meinen neben Beispielen für das Possessivpronomen (1) auch alle Belege für die gleichlautende Verbform (2) finden. Das Suchergebnis wäre also sehr ‘unsauber’, da die Wortform selbst keinen Aufschluss über ihre Interpretation gibt. Eine Annotation mit Wortarten würde die beiden Lesarten disambiguieren und damit die Rückgabe der Suchanfrage präziser machen. Die Rückgabe würde weniger ungewünschte Lesarten enthalten, die man andernfalls bei der Ergebnissichtung manuell ausschließen müsste. Kurz gesagt, eine Suchanfrage auf Wortarten-annotierten Daten ist für den Nutzer effizienter als eine Suche auf reinen Wortformen.
منابع مشابه
POS für(s) FOLK - Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch
1 Einleitung Im Rahmen des FOLK-Projekts (Forschungsund Lehrkorpus Gesprochenes Deutsch), das am Institut für Deutsche Sprache (IDS) ein großes wissenschaftsöffentliches Gesprächskorpus aufbaut, soll mit Hilfe des TreeTaggers (SCHMID 1995) und des Stuttgart-TübingenTagsets (STTS), (SCHILLER ET AL. 1999) ein automatisiertes Part-of-Speech-Tagging (POSTagging) für Spontansprache ermöglicht werden...
متن کاملSTTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data
Part-of-speech tagging (POS-tagging) of spoken data requires different means of annotation than POS-tagging of written and edited texts. In order to capture the features of German spoken language, a distinct tagset is needed to respond to the kinds of elements which only occur in speech. In order to create such a coherent tagset the most prominent phenomena of spoken language need to be analyze...
متن کاملSTTS als Part-of-Speech-Tagset in Tübinger Baumbanken
Das Stuttgart-Tübingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard für das Tagging von Wortarten in deutschen Texten, und die überwiegende Mehrzahl der POS-annotierten Ressourcen fürs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TüBa-D/S (Hinrichs et al., 2000) und TüBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwe...
متن کاملThe 8 th Linguistic Annotation Workshop in conjunction with COLING 2014
Part-of-speech tagging (POS-tagging) of spoken data requires different means of annotation than POS-tagging of written and edited texts. In order to capture the features of German spoken language, a distinct tagset is needed to respond to the kinds of elements which only occur in speech. In order to create such a coherent tagset the most prominent phenomena of spoken language need to be analyze...
متن کاملSTTS goes Kiez - Experiments on Annotating and Tagging Urban Youth Language
The Stuttgart-Tübingen Tag Set (STTS) (Schiller et al., 1995) has long been established as a quasi-standard for part-of-speech (POS) tagging of German. It has been used, with minor modifications, for the annotation of three German newspaper treebanks, the NEGRA treebank (Skut et al., 1997), the TiGer treebank (Brants et al., 2002) and the TüBa-D/Z (Telljohann et al., 2004). One major drawback, ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- JLCL
دوره 28 شماره
صفحات -
تاریخ انتشار 2013